案例 ②
Nate B Jones 实验
(。・ω・。)ノ
42%
实验
78%
结论更极端 (`・ω・´)
研究员 (。・ω・。)
Nate B Jones
AI 工程研究员 (`・ω・´)
编程基准测试 · Harness 对比实验
同一个模型
同一个提示词
改变
Harness
成功率巨变
42% → 78%
实验条件 (。・ω・。)
同一个
模型
模型不变 (`・ω・´)
AI
=
同一个
提示词
提示词不变 (。ŏ_ŏ)
=
只改变
环境
唯一变量 ✧(≖ ◡ ≖✿)
v1
→
v2
模型锁定 · 提示词锁定 ·
只动 Harness
(。・ω・。)ノ
编程基准测试成功率 (。・ω・。)
改之前
原始 Harness
25
50
75
42%
+36% 提升 ✧
改之后
优化 Harness
25
50
75
78%
差了将近
一倍
✧*。٩(ˊᗜˋ*)و✧*。
变量只有一个 (`・ω・´)
42%
原始环境 (´;ω;`)
只改 Harness (。・ω・。)
78%
优化 Harness ✧(≖ ◡ ≖✿)
变量只有
Harness
(。・ω・。)ノ
换句话说 (。ŏ_ŏ)
Harness 提升
42%
78%
=
等效于
旧模型
新一代模型
性能跃升
换模型
→
改
Harness
核心发现 (。・ω・。)
同模型
同提示词 (`・ω・´)
只改 Harness
优化运行环境 (。・ω・。)
成功率翻倍
42% → 78% ✧*。٩(ˊᗜˋ*)و✧*。
Harness 的提升
≈ 换一代模型
模型不是瓶颈,运行环境才是关键 (`・ω・´)ゞ